智能论文笔记

Metrics reloaded: Pitfalls and recommendations for image analysis validation

Lena Maier-Hein , Annika Reinke , Evangelia Christodoulou , Ben Glocker , Patrick Godau , Fabian Isensee , Jens Kleesiek , Michal Kozubek , Mauricio Reyes , Michael A. Riegler

分类：计算机视觉

2022-06-03

自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是，当前的度量使用通常是不明智的，并且不能反映基本的域名。在这里，我们提出了一个全面的框架，该框架指导研究人员以问题意识的方式选择绩效指标。具体而言，我们专注于生物医学图像分析问题，这些问题可以解释为图像，对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ，数据集和算法与输出问题相关的属性的属性与问题指纹相关，同时还将其映射到适当的问题类别，即图像级分类，语义分段，实例，实例细分或对象检测。然后，它指导用户选择和应用一组适当的验证指标的过程，同时使他们意识到与个人选择相关的潜在陷阱。在本文中，我们描述了指标重新加载推荐框架的当前状态，目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的，将在社区驱动的优化之后公开作为用户友好的工具包提供。

translated by 谷歌翻译

尽管自动图像分析的重要性不断增加，但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义，客观和透明的性能评估和验证尤其是关键，但是在使用特定的指标进行给定的图像分析任务时，对实际陷阱的关注相对较少。这些通常与（1）无视固有的度量属性，例如在存在类不平衡或小目标结构的情况下的行为，（2）无视固有的数据集属性，例如测试的非独立性案例和（3）无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下，它重点介绍了可以用作图像级分类，语义分割，实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。

translated by 谷歌翻译

This paper investigates models of event implications. Specifically, how well models predict entity state-changes, by targeting their understanding of physical attributes. Nominally, Large Language models (LLM) have been exposed to procedural knowledge about how objects interact, yet our benchmarking shows they fail to reason about the world. Conversely, we also demonstrate that existing approaches often misrepresent the surprising abilities of LLMs via improper task encodings and that proper model prompting can dramatically improve performance of reported baseline results across multiple tasks. In particular, our results indicate that our prompting technique is especially useful for unseen attributes (out-of-domain) or when only limited data is available.

translated by 谷歌翻译

我们在盒子值上相关的分布中重新审视经典的潘多拉盒（PB）问题。 ARXIV的最新工作：1911.01632获得了限制性类别的策略量持续近似算法，该策略以固定顺序访问框。在这项工作中，我们研究了近似最佳策略的复杂性，该策略可以根据迄今为止所看到的值适应下一步访问哪个框。我们的主要结果确定了PB的近似值等效性与研究良好的统一决策树（UDT）问题，从随机优化和Min-Sum Set封面的变体（$ \ MATHCAL {MSSC} _F $）问题。对于支持$ M $的分布，UDT承认$ \ log M $近似值，而多项式时间的恒定因子近似是一个长期的开放问题，但在次指数时间内可以实现恒定的因子近似值（ARXIV：1906.11385）。我们的主要结果意味着PB和$ \ MATHCAL {MSSC} _F $具有相同的属性。我们还研究了一个案例，使价值分布更简洁地作为$ m $产品分布的混合物。这个问题再次与最佳决策树的嘈杂变体有关，该变体更具挑战性。我们给出一个恒定的因子近似值，该近似时间$ n^{\ tilde o（m^2/\ varepsilon^2）} $当每个盒子上的混合组件在电视距离中相同或通过$ \ varepsilon $在电视距离中相同或分开。

translated by 谷歌翻译